我们提出了一个录音录音录音的录音录音。我们的模型通过短时傅立叶变换(STFT)将其输入转换为时频表示,并使用卷积神经网络处理所得的复杂频谱图。该网络在合成音乐数据集上培训了重建和对抗性目标,该数据集是通过将干净的音乐与从旧唱片的安静片段中提取的真实噪声样本混合而创建的。我们在合成数据集的持有测试示例中定量评估我们的方法,并通过人类对实际历史记录样本的评级进行定性评估。我们的结果表明,所提出的方法可有效消除噪音,同时保留原始音乐的质量和细节。
translated by 谷歌翻译
The success of Deep Learning applications critically depends on the quality and scale of the underlying training data. Generative adversarial networks (GANs) can generate arbitrary large datasets, but diversity and fidelity are limited, which has recently been addressed by denoising diffusion probabilistic models (DDPMs) whose superiority has been demonstrated on natural images. In this study, we propose Medfusion, a conditional latent DDPM for medical images. We compare our DDPM-based model against GAN-based models, which constitute the current state-of-the-art in the medical domain. Medfusion was trained and compared with (i) StyleGan-3 on n=101,442 images from the AIROGS challenge dataset to generate fundoscopies with and without glaucoma, (ii) ProGAN on n=191,027 from the CheXpert dataset to generate radiographs with and without cardiomegaly and (iii) wGAN on n=19,557 images from the CRCMS dataset to generate histopathological images with and without microsatellite stability. In the AIROGS, CRMCS, and CheXpert datasets, Medfusion achieved lower (=better) FID than the GANs (11.63 versus 20.43, 30.03 versus 49.26, and 17.28 versus 84.31). Also, fidelity (precision) and diversity (recall) were higher (=better) for Medfusion in all three datasets. Our study shows that DDPM are a superior alternative to GANs for image synthesis in the medical domain.
translated by 谷歌翻译
Bias elimination and recent probing studies attempt to remove specific information from embedding spaces. Here it is important to remove as much of the target information as possible, while preserving any other information present. INLP is a popular recent method which removes specific information through iterative nullspace projections. Multiple iterations, however, increase the risk that information other than the target is negatively affected. We introduce two methods that find a single targeted projection: Mean Projection (MP, more efficient) and Tukey Median Projection (TMP, with theoretical guarantees). Our comparison between MP and INLP shows that (1) one MP projection removes linear separability based on the target and (2) MP has less impact on the overall space. Further analysis shows that applying random projections after MP leads to the same overall effects on the embedding space as the multiple projections of INLP. Applying one targeted (MP) projection hence is methodologically cleaner than applying multiple (INLP) projections that introduce random effects.
translated by 谷歌翻译
基于草图的图像检索(SBIR)是检索与语义和手绘草图查询的空间配置相匹配的自然图像(照片)的任务。草图的普遍性扩大了可能的应用程序的范围,并增加了对有效SBIR解决方案的需求。在本文中,我们研究了经典的基于三胞胎的SBIR解决方案,并表明对水平翻转(即使在模型登录之后)的持续不变性也损害了性能。为了克服这一限制,我们提出了几种方法,并深入评估它们每个方法以检查其有效性。我们的主要贡献是双重的:我们提出并评估几种直观的修改,以构建具有更好的翻转均衡性的SBIR解决方案。我们表明,视觉变压器更适合SBIR任务,并且它们的优于CNN的优于较大的CNN。我们进行了许多实验,并引入了第一个模型,以优于大规模SBIR基准(粗略)的人类表现。与以前的最新方法相比,我们的最佳模型在粗略的基准测试中达到了62.25%(在k = 1)的召回率为46.2%。
translated by 谷歌翻译
手术场景的语义分割是机器人辅助干预措施中任务自动化的先决条件。我们提出了LapseG3D,这是一种基于DNN的新方法,用于代表手术场景的点云的素云注释。由于训练数据的手动注释非常耗时,因此我们引入了一条半自治的基于聚类的管道,用于胆囊的注释,该管道用于为DNN生成分段标签。当对手动注释数据进行评估时,LapseG3D在前体猪肝的各种数据集上的胆囊分割达到了0.94的F1得分。我们显示LapseG3D可以准确地跨越具有不同RGB-D摄像机系统记录的不同胆囊和数据集。
translated by 谷歌翻译
本文提出了一个低成本且高度准确的ECG监测系统,用于针对可穿戴移动传感器的个性化早期心律不齐检测。对个性化心电图监测的早期监督方法需要异常和正常的心跳来训练专用分类器。但是,在真实的情况下,个性化算法嵌入了可穿戴设备中,这种训练数据不适合没有心脏障碍史的健康人。在这项研究中,(i)我们对通过稀疏字典学习获得的健康信号空间进行了无空间分析,并研究了如何简单的无效空间投影或基于最小二乘的规范性分类方法可以降低计算复杂性,而无需牺牲牺牲计算的复杂性。与基于稀疏表示的分类相比,检测准确性。 (ii)然后,我们引入了基于稀疏表示的域适应技术,以便将其他现有用户的异常和正常信号投射到新用户的信号空间上,使我们能够训练专用的分类器而无需​​新用户的任何异常心跳。因此,无需合成异常的心跳产生,可以实现零射学习。在基准MIT-BIH ECG数据集上执行的一组大量实验表明,当该基于域的基于域的训练数据生成器与简单的1-D CNN分类器一起使用时,该方法以明显的差距优于先前的工作。 (iii)然后,通过组合(i)和(ii),我们提出了一个整体分类器,以进一步提高性能。这种零射门心律失常检测的方法的平均准确性水平为98.2%,F1得分为92.8%。最后,使用上述创新提出了一个个性化的节能ECG监测计划。
translated by 谷歌翻译
由于缺乏可用的数据集,模型和标准评估指标,因此以多模式数据为条件的现实,生动和类似人类的合成对话手势仍然是一个未解决的问题。为了解决这个问题,我们构建了人体表达式 - aauio-Text数据集,Beat,它具有76小时,高质量的,高质量的多模式数据,这些数据从30位扬声器中捕获了八种不同的情绪,用四种不同的语言,ii)32数以百万计的框架级别的情感和语义相关注释。我们对BEAT的统计分析表明,除了与音频,文本和说话者身份的已知相关性外,对话式手势与面部表情,情感和语义的相关性。基于此观察结果,我们提出了一个基线模型,即级联运动网络(CAMN),该模型由以上六种模式组成,该模式在级联的架构中建模以进行手势合成。为了评估语义相关性,我们引入了指标,语义相关性召回(SRGR)。定性和定量实验证明了指标的有效性,地面真相数据质量以及基线的最先进性能。据我们所知,BEAT是用于研究人类手势的最大运动捕获数据集,这可能有助于许多不同的研究领域,包括可控的手势合成,跨模式分析和情感手势识别。数据,代码和模型可在https://pantomatrix.github.io/beat/上获得。
translated by 谷歌翻译
注释音乐节拍在繁琐的过程中是很长的。为了打击这个问题,我们为节拍跟踪和下拍估算提出了一种新的自我监督的学习借口任务。这项任务利用SPLEETER,一个音频源分离模型,将歌曲的鼓从其其余的信号分开。第一组信号用作阳性,并通过延长否定,用于对比学习预培训。另一方面,鼓的信号用作锚点。使用此借口任务进行全卷积和复发模型时,学习了一个开始功能。在某些情况下,发现此功能被映射到歌曲中的周期元素。我们发现,当一个节拍跟踪训练集非常小(少于10个示例)时,预先训练的模型随机初始化模型表现优于随机初始化的模型。当不是这种情况时,预先训练导致了一个学习速度,导致模型过度训练集。更一般地说,这项工作定义了音乐自我监督学习领域的新观点。尤其是使用音频源分离作为自我监督的基本分量的作品之一。
translated by 谷歌翻译
语义图像分割是手术中的背景知识和自治机器人的重要前提。本领域的状态专注于在微创手术期间获得的传统RGB视频数据,但基于光谱成像数据的全景语义分割并在开放手术期间获得几乎没有注意到日期。为了解决文献中的这种差距,我们正在研究基于在开放手术环境中获得的猪的高光谱成像(HSI)数据的以下研究问题:(1)基于神经网络的HSI数据的充分表示是完全自动化的器官分割,尤其是关于数据的空间粒度(像素与Superpixels与Patches与完整图像)的空间粒度? (2)在执行语义器官分割时,是否有利用HSI数据使用HSI数据,即RGB数据和处理的HSI数据(例如氧合等组织参数)?根据基于20猪的506个HSI图像的全面验证研究,共注释了19个类,基于深度的学习的分割性能 - 贯穿模态 - 与输入数据的空间上下文一致。未处理的HSI数据提供优于RGB数据或来自摄像机提供商的处理数据,其中优势随着输入到神经网络的输入的尺寸而增加。最大性能(应用于整个图像的HSI)产生了0.89(标准偏差(SD)0.04)的平均骰子相似度系数(DSC),其在帧间间变异性(DSC为0.89(SD 0.07)的范围内。我们得出结论,HSI可以成为全自动手术场景理解的强大的图像模型,其具有传统成像的许多优点,包括恢复额外功能组织信息的能力。
translated by 谷歌翻译
从数据中学习的方法取决于各种类型的调整参数,例如惩罚强度或步长大小。由于性能可以在很大程度上取决于这些参数,因此重要的是要比较估算器的类别 - 考虑规定的有限调谐参数集,而不是特别调谐的方法。在这项工作中,我们通过同类中最佳方法的相对性能研究方法类。我们考虑了线性回归的中心问题,即随机的各向同性地面真理,并研究了两种基本方法的估计性能,即梯度下降和脊回归。我们公布以下现象。 (1)对于一般设计,当经验数据协方差矩阵衰减的特征值缓慢,作为指数较不小于统一的功率定律时,恒定的梯度下降优于山脊回归。相反,如果特征值迅速衰减,则作为指数大于统一或指数的权力定律,我们表明山脊回归优于梯度下降。 (2)对于正交设计,我们计算了确切的最小值最佳估计器类别(达到最低最大最大最佳),这表明它等同于具有衰减学习率的梯度下降。我们发现山脊回归和梯度下降的次数均具有恒定的步长。我们的结果表明,统计性能可以在很大程度上取决于调整参数。特别是,虽然最佳调谐脊回归是我们设置中的最佳估计器,但当仅在有限的许多正则化参数上调整两种方法时,它可以用任意/无界数量的梯度下降来表现优于梯度下降。
translated by 谷歌翻译